Large Scale Knowledge Washing: 大规模语言模型知识清洗

Large Scale Knowledge Washing: 大规模语言模型知识清洗

通过修改Transformer MLP层权重实现大规模敏感知识删除,同时保持模型推理能力

Large Scale Knowledge Washing: 大规模语言模型知识清洗

日期: 2025-1-15
链接: ICLR 2025
标签: LLM 知识遗忘 模型编辑 隐私保护 机器学习安全

核心观点

提出LAW方法,通过约束优化直接修改Transformer MLP层权重,实现大规模敏感知识删除的同时保持模型推理能力。核心创新是将知识"清洗"重新定义为扰动目标知识输出而非简单替换。

技术架构

模型操作层面: - 目标:GPT-2/GPT-J的MLP前馈网络层 - 方法:多层权重联合更新,分散参数变化影响 - 定位:基于因果跟踪确定关键知识存储层

优化策略: - 双目标函数:最大化目标知识扰动 + 约束其他能力保持 - 初始化:使用MEMIT编辑结果作为warm start - 渐进消除:多轮迭代中动态排除已删除知识

实验设置

数据集: - zsRE: 19K问答对 - CounterFactual: 21K反事实知识 - Wiki-Latest: 332K Wikipedia三元组(自构建)

基线对比: - 模型编辑:MEMIT, ME-FT - 知识遗忘:FT-UL, WOH, SeUL

评估指标: - 知识遗忘:准确率下降、QA-F1分数 - 能力保持:Lambda/HellaSwag/ARC推理任务

关键结果

知识清洗效果: - Wiki-Latest数据集:准确率从100%降至19.3%(GPT2-XL) - 优于所有基线方法的遗忘彻底性

推理能力保持: - 推理任务平均准确率仅下降5-10% - 显著优于传统微调方法(常导致模型崩溃)

扩展性验证: - 成功处理30万+规模知识删除 - 计算效率远超重新训练方案

技术创新

范式转换: - 从确定性替换到随机化扰动 - 从闭式解到约束优化求解

工程优化: - MEMIT初始化策略解决局部最优 - 自适应β参数平衡清洗-保持权衡 - 渐进式处理提升大规模效率

应用价值

隐私保护: 移除训练数据中的个人敏感信息 版权合规: 删除受保护的文学作品、新闻内容
安全部署: 清理有害或不当知识内容 模型定制: 为特定场景移除不相关知识

技术局限

适用范围: 当前仅支持三元组格式的结构化知识 模型依赖: 主要在GPT-2/J上验证,对新架构适应性待确认 理论基础: 知识-推理解耦假设缺乏严格理论证明 安全保证: 清洗完整性难以绝对保证,可能存在间接访问路径

未来方向

  • 扩展至非结构化文本知识处理
  • 适配更多主流LLM架构(LLaMA等)
  • 建立更严格的安全性验证框架
  • 研究知识遗忘的长期稳定性

Thanks for Reading

If this article was helpful to you, feel free to connect with me!